目次

現在使える機能

Caption

Visual Q&A

おわりに

Vertex AIのGenerative AI StudioでVision系を使ってみる

#Google Cloud (GCP)

じょんすみす

2023.09.15

この記事は公開されてから1年以上経過しています。情報が古い可能性がありますので、ご注意ください。

おはこんハロチャオ～！何者(なにもん)なんじゃ？じょんすみすです。

Vertex AIの生成AIにはLLMを使った自然言語の生成モデル以外にもVisionとSpeechという項目があります。

今回は、この中のVisionを見ていきます。

現在使える機能

メニューからGenerative AI StudioのVisionを選択すると、4つの項目が表示されます。

Generate
Edit
Caption
Visual Q&A

2023/09/15現在、GenerateとEditは限定公開となっています。そのため、今回はすぐに試すことが可能なCaptionとVisual Q&Aを使ってみます。

Caption

Captionでは、画像に対する説明文を生成します。

「UPLOAD IMAGE」から画像ファイルをアップロードして、下部にある「GENERATE CAPTION」を押すことで画像に対する説明文が表示されます。

対応している言語は現在のところ

英語
フランス語
ドイツ語
イタリア語
スペイン語

となっているようです。

いらすとやの「人工知能に仕事を任せる人のイラスト」で試してみましょう。

an illustration of a man sitting at a desk with his feet up and a brain behind him

このような結果が得られました。画面に表示された脳が人工知能を模したものであるということまでは判断できないようですが、全体の構図を説明する内容になっています。

「Number of captions」を変更することで複数の候補を出力することができますので、他にどのような出力が得られるのかも試してみます。

いくつかのパターンが出ました。いずれも構図を説明したような内容になっています。

次に、イラストではなく写真で試してみます。

a house with a red roof sits in the middle of a forest

こちらも、写真に写っているものの構図を説明する文章が生成されました。

Captionでは画像にどのようなものが写っているかを文章説明する内容を出力してくれるようです。いい感じに説明したけど、どう表現するのがいいか...みたいなときに便利そうですね。

Visual Q&A

続いて、Visual Q&Aを見ていきます。こちらは、画像とそれに対する質問を入れることで回答を得る仕組みです。現在のところ対応している言語は英語のみとなっています。

引き続き先ほどの写真の内容で質問してみます。

Are there people or animals in the photo?

という質問に対する答えは

no

とのことです。

続いて、yes/noで答えられない質問をしてみます。

質問 :

Name three things in this photo.

回答 :

house

1つしか教えてくれませんでしたが、家が写っていることを教えてくれました。

写真からは分からないことを質問するとどうなるでしょう？

質問 :

Please tell me where this house is located.

回答 :

woods

たしかにその通りではありますね。

このように、Visual Q&Aは画像の内容について質問すると一言で返してくれるようです。

おわりに

今回は、Vertex AIのGenertive AI Studioの中のVision系の様子を見てみました。

今回様子を見た2つの機能だけでも、様々な用途で使えそうです。まだ解禁されてない他の2つも含めて、使い方に夢が膨らむ機能となっていますね。

Share this article

関連記事

Storage Transfer ServiceがS3へアクセスするときのIP範囲の変更検知方法を考えてみた

Storage Transfer ServiceがS3へアクセスするときのIP範囲の変更検知方法を考えてみた

2025.01.18

Cloud DNSの限定公開のプライベートゾーンをTerraformで作成する

Cloud DNSの限定公開のプライベートゾーンをTerraformで作成する

2025.01.17

BigQuery の BigLake テーブルと Hive パーティショニングを利用して無駄なファイルの読み込みを避けてみた

BigQuery の BigLake テーブルと Hive パーティショニングを利用して無駄なファイルの読み込みを避けてみた

2025.01.15

Workflowsが多重起動されないようにする方法をCloud Run Functionsを用いる方法で考えてみた

Workflowsが多重起動されないようにする方法をCloud Run Functionsを用いる方法で考えてみた

2025.01.13

クラスメソッド株式会社

主なカテゴリ

AWS

おすすめ

セキュリティ

リモートワーク

プロダクト

コンテンツ

DevelopersIOとは

お問い合わせ

DevelopersIOについて

AWSに関するご相談

セミナーお知らせメール

会社説明会

運営会社

AWS総合支援サービス

プライバシーポリシー

クッキーポリシー

© Classmethod, Inc. All rights reserved.